iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 12
0
Google Developers Machine Learning

Machine Learning Day30系列 第 12

[Day12]訓練模型-避免overfit

  • 分享至 

  • xImage
  •  

當我們做完特徵工程,
判斷資料適合的模型後,
進行訓練的同時,要記得避免overfitting。

Overfit vs Underfit

  • Overfit : Training Model的效度太高,但是Test的結果很差
  • Underfit : Training Model的效度太低

如Coursa上的課程「Generalization and ML Models」,
https://ithelp.ithome.com.tw/upload/images/20190922/20112568JQHlX3655G.png
如上圖,RMSE從0躍升至3.2,這是一個巨大的問題,
表明該模型,在訓練數據集上「完全過分擬合」,
並且證明模型太脆弱或不能推廣到新數據。

三種情況圖形:
https://ithelp.ithome.com.tw/upload/images/20190922/20112568pRExa35PmM.png

也可以再將資料分兩群驗證:
https://ithelp.ithome.com.tw/upload/images/20190922/20112568NnpBB6L8vG.png

解決Overfit

如Coursa上的課程「When to Stop Model Training」,
透過調整「超參數」來解決Overfit問題:
https://ithelp.ithome.com.tw/upload/images/20190922/20112568Y6j4WKZ0ry.png

模型經過訓練和驗證後,在針對獨立的「測試」數據集進行一次。
https://ithelp.ithome.com.tw/upload/images/20190922/20112568y5KNNxkTVi.png


若不幸最後的測試有錯誤,
除了再去重新蒐集資料外,
可以使用訓練和驗證資料進行「拆分技術」和「迭代次數」來改善,
得到多次的誤差值,進行「交叉驗證」。


以上,打完收工。


上一篇
[Day11]Google提供的API
下一篇
[Day13]特徵工程介紹
系列文
Machine Learning Day3026
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言